Regression
# Tag:
- Source/KU_ML
회귀 모형(Regression Model)
와 의 관계를 설명할 수 있는 함수 를 주어진 데이터를 이용하여 추정하는 것이다.
- 기본 원칙은, Residual error(잔차, or empirical error)을 최소화 하는 것이다.
- : hidden variable or noise. , Overfitting을 방지하는 역할을 하기도 한다.
예측의 중점을 두는지 혹은 분석에 초점을 두는지에 따라 Machine Learning의 기법으로 보기도 한다.
- Residual Error을 과하게 최소화 하면, Train Data에 대해 Overfitting 일어나게 된다.
- Test Data에 대한 예측 성능이 급격하게 감소하게 된다.
- Error: : Least Squares Estimation
Solution
Parametric Methods을 바탕으로 하며, 확률 분포의 모수 모형 등 다양하게 나타나지만, 를 추정해내는 과정이 된다.
Example
- : 이 때의 는, unknown parateter 에 대한 에 대한 approximation이자, Expectation 이 된다.정확히는 모수 모형에 따라 그 확률 분포는 달라진다.
- : 이 Gaussian Distribution을 따르므로, 같은 에 대해서도 어느 정도의 값이 변화하게 한다.
MLE for regression
Empirical Error의 하락은, Likelihood의 증가로 이어짐이 알려져 있고, 이에 따라 보통 MSE를 empirical error로 사용한다.
이 때, 는 와 관련 없는 항이고, 위의 의 분포를 따른다고 하면
:즉, MSE가 Empirical Error가 됨이 증명되어 있고 이는 곧 Likelihood의 반비례함이 보여진다.
모수모형
- 독립변수(independent variable): , 여러 개가 될 수 있다.
- 종속변수(explanatory variable): , 여러 개가 될 수 있다.
- 확률 오차항: , overfitting을 방지한다.
즉, 유한개의 모수를 이용하여 표현하는 모형.
종류
- Linear Regression
- Logistic Regression
- Nonlinear Regression: MLP(Multi Layter Perceptron)